R kui kalkulaator
Kõige lihtsam viis R-i kasutada on temaga lihtsalt arvutusi teha.
5 + 7
[1] 12
25 ** 2
[1] 625
1 / 2
[1] 0.5
1 / 0
[1] Inf
0 / 0
[1] NaN
x = 5
ctrl alt i teeb uue koodi akna
shift enter paneb uue rea koodiblokist välja
ctrl enter jooksutab 1 rea
ctrl shift enter jooksutab terve koodibloki
Kohe on kasutajale kättesaadavad ka peamised matemaatilised
funktsioonid ja konstandid.
2 + sqrt(375769) - 25^2 # astendamismärgina võib kasutada nii ^ kui ka **, nt 2**3
[1] -10
sin(pi/6) + acosh(1)
[1] 0.5
log(exp(1))
[1] 1
sqrt(-1+0i)
[1] 0+1i
factorial(6) / choose(4, 2)
[1] 120
Kasutatud matemaatilised funktsioonid on näited R-s defineeritud
käskudest, mida kutsutakse välja nende nime ja järgnevate sulgudega.
Sulgude sisse lisatakse funktsiooni argumendid. Argumendi nimed võib,
kuid ei pea välja kirjutama, kui anda argumendi väärtused ette õiges
järjekorras. Näiteks järgnevad käsud annavad sama tulemuse.
log(x = 25, base = 5)
[1] 2
log(25, 5)
[1] 2
Abi R-s
Tihtipeale ei pea kõiki argumente määrama, sest nendel on määratud
vaikimisi väärtused. Selleks, et aru saada kuidas mõni funktsioon töötab
tasub vaadata konkreetse funktsiooni abi lehekülgi. Neile saab ligi
kirjutades funktsiooni ette ?. Näiteks.
?log
Abilehed tekivad kõrvalaknasse. Help failil on mitu standardset osa
millest on erinevate küsimuste puhul abi.
Usage: siin on funktsiooni väljakutse koos kõigi
parameetritega. Juhul kui konkreetsele parameetrile on defineeritud
vaikeväärtus, siis on see kirjas parameetri järel pärast
võrdusmärki.
Arguments: kirjeldab parameetri
tähendust.
Details: annab funktsiooni implementatsiooni
detailid.
Examples: näited mida üldiselt võib kohe läbi
jooksutada. Uue funktsiooni tundma õppimisel on näidete
sektsioon tihtipeale kõige suuremaks abiks, sest nii on
lihtsama saada aru sisendi ja väljundi oodatavast kujust.
Muutujad
Loomulikult nagu programmeerimisekeelele kohane saab R-s defineerida
ka muutujaid.
kaal = 80
pikkus = 180
bmi = kaal / (pikkus / 100)^2
bmi2 <- bmi**2
bmi
[1] 24.69136
jah = TRUE
ei = F
jah
[1] TRUE
ei
[1] FALSE
Muutujatele ei pea ette tüüpi, selle arvab R ise ära. Olulisemaid
muutuja tüüpe ei ole väga palju:
logical - tõeväärtuste hoidmiseks (väärtused
TRUE/FALSE),
numeric - kõik reaalarvud, sealhulgas
täisarvud,
character - sõned (sisestamisel panna jutumärkide
vahele).
Ühest tüübist teise teisendamiseks on mõeldud funktsioonid
as.<tüübi nimi>. Näiteks saab tihti veateateid, kui
tehteid tehakse valest tüübist muutujatega.
"5" + 5
Error in "5" + 5 : non-numeric argument to binary operator
Kasutades tüübiteisendusi saab neist üle.
as.numeric("5") + 5
[1] 10
Ülesanne 2
TRUE + TRUE
[1] 2
TRUE - TRUE
[1] 0
TRUE - FALSE
[1] 1
F - T
[1] -1
FALSE + FALSE
[1] 0
FALSE - FALSE
[1] 0
Funktsioonide defineerimine
Me enne nägime, et on võimalik kasutada ette antud funktsioone. Kuid
neid on ka lihtne defineerida järgneva süntaksiga.
<funktsiooni nimi> = function(<argumentide nimekiri>){
<argumentidega tehtavad operatsioonid>
return(<tagastatav väärtus>)
}
Näiteks võime defineerida kehamassi indeksi arvutamise
funktsiooni.
bmi = function(kaal, pikkus = 180){
res = kaal / (pikkus / 100) ** 2
return(res)
}
bmi(85)
[1] 26.23457
bmi(85, 195)
[1] 22.35371
Lisapaketid
Paljud R-i lisafunktsioonid on pakendatud pakettidesse, mis tuleb
kasutamiseks eraldi laadida käsuga library. Näiteks
funktsioon as_date on lisapaketis lubridate,
mille peab enne kasutamist sisse lugema.
#as_date("2012-01-01")
library(lubridate)
as_date("2012-01-01")
[1] "2012-01-01"
Enamus pakette mis asuvad keskses repositooriumis CRAN-s, saab R-s
installida kas käsuga install.packages konsoolilt või
Packages saki alt paremal alumises aknas RStudios (kui vaja valige
Install from: Repository (CRAN)).
Ülesanne 3
- Installi pakett
tidyverse ja loe see sisse.
library(tidyverse)
Vektorid
Keskne objektitüüp R-s on vektor (sarnane 1D
numpy array-ga). mis on teisisõnu ühe mõõtmeline sama tüüpi
muutujate järjestus. Vektorite loomiseks on mitmeid viise.
1:10 # Järjest numbrid
[1] 1 2 3 4 5 6 7 8 9 10
9:2 # Tagurpidi järjestus
[1] 9 8 7 6 5 4 3 2
c(1, 4, 2, 6) # Suvaliste elementide järjestus
[1] 1 4 2 6
c(1:10, 4, c(2, 4)) # Argumendid võivad olla nii vektori kui üksikud väärtused
[1] 1 2 3 4 5 6 7 8 9 10 4 2 4
c("A", "B", "C") # Vektorisse võib panna ka sõnesid
[1] "A" "B" "C"
seq(0, 1, length.out = 10) # Suvalise algus- ja lõpppunktiga võrdse vahemikuga jadad
[1] 0.0000000 0.1111111 0.2222222 0.3333333 0.4444444 0.5555556 0.6666667 0.7777778 0.8888889 1.0000000
rep(1:2, times = 5)
[1] 1 2 1 2 1 2 1 2 1 2
fnc “c” tähendab combine!!! c(1, 2) loob 1d array (vektori) [1,
2]
Andmete eraldamine vektorist käib kandiliste sulgudega. Tasub meelde
jätta et R-s algab indekseerimine 1-st.
x = 10:1
x[1]
[1] 10
x[1:5]
[1] 10 9 8 7 6
Tegelikult käsitletakse R-s isegi ühe väärtusega objekte vektoritena.
Seega pole suurt vahet kas tehetes on vektor või üksikud väärtused.
Vektori puhul tehakse tehteid elemendi kaupa. Kui sisendiks on erineva
pikkusega vektorid siis lühemat korratakse nii kaua kui saaab pikemaga
võrdseks. Sama loogika kehtib nii aritmeetiliste tehete kui ka paljude
funktsioonide puhul.
bmi(c(85, 90, 95, 100, 105), 194)
[1] 22.58476 23.91327 25.24179 26.57031 27.89882
Paljude funktsioonide puhul muidugi oodataksegi vektorit ja
tulemuseks on arv.
min(1:10)
[1] 1
max(1:10)
[1] 10
mean(1:10)
[1] 5.5
median(0:10)
[1] 5
Ülesanne 4
Defineeri funktsioon mis teisendab etteantud numbrilise vektori 0
ja 1 vahele, nii et minimaalne väärtus on 0 ja maksimaalne 1. Vihje:
vektori x ja selle elemendi xi korral on valem
järgmine (xi - min(x))/(max(x) -min(x)).
Testi saadud funktsiooni, vektorite 0:10 ja
-5:5 peal. Kas tulemused on sarnased või erinevad?
vektor_teisenda = function(vektor) {
vastus =(vektor - min(vektor)) / (max(vektor) - min(vektor))
return(vastus)
}
vektor_teisenda(0:10)
[1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Andmetabelite töötlemine tidyverse käskudega
R-s on mitmeid viise kuidas andmeid saab töödelda, viimasel ajal on
väga populaarseks saanud lähenemine mis on implementeeritud pakettide
kogumikus ühise nimetajaga tidyverse. Võiks öelda, et tegu
on lausa omamoodi alamkeelega R-i sees, mis laenab kontseptsioone
erinveatest keeltest nagu SQL ja bash ning
proovib paljud operatsioonid panna tööle ühiste printsiipide põhjal.
%>%
Üheks tähtsamaks käsuks tidyverse puhul on nn “toru”
%>% mis võimaldab kirjutada pikkasid käskude jadasid
loetavalt. Illustreerimaks selle kasulikkust vaatame järgmist
näidet.
prices = c("$1423.55", "$556.98", "$4321.99", "$657.01")
prices_trim = str_replace(prices, "\\$", "")
prices_trim_num = as.numeric(prices_trim)
prices_trim_num_round = round(prices_trim_num, digits = 0)
prices_round_final = str_c("$", prices_trim_num_round)
prices_round_final
[1] "$1424" "$557" "$4322" "$657"
Siin rakendame järjest mitmeid operatsioone ja salvestame kõik
vahemuutujatesse millele peame nimesid mõtlema, mis on suhteliselt
tüütu. Me võime sellise operatsioooni kirjutada ka ühel real.
str_c("$", round(as.numeric(str_replace(prices, "\\$", "")), digits = 0))
[1] "$1424" "$557" "$4322" "$657"
Kuid sellist asja on väga raske lugeda. Sest funktsioone rakendatakse
järjest seestpooolt väljapoole. Palju lihtsam oleks lugeda, kui
funktsioonid liiguks rakendamise järjekorras vasakult paremale. See on
just see mida operaator %>% teeb. Ta võimaldab kirjutada
f(g(x)), kui x %>% g() %>% f(). Meie
eelmine näide näeks välja järgnev.
prices %>% str_replace("\\$", "") %>% as.numeric() %>% round() %>% str_c("$", .)
[1] "$1424" "$557" "$4322" "$657"
Pane tähele, et kui eelneva funktsiooni väljund peaks olema järgmises
funktsiooni väljakutses esimesel positsioonil, siis võib selle ära
jätta. Kui väljund peab minema mõnele teisele positsioonile, siis saab
seda märkida kui . (vt viimane käsk).
Tidyverse funktsioonid
Tidyverse on üles ehitatud funktsioonidel, millest igaüks võtab sisse
andmetabeli ja annab välja modifitseeritud andmetabeli. Iga funktsioon
teostab ainult ühte operatsiooni, aga kui neid operaatoriga %>%
järjest rakendada on võimalik saavutada väga palju. Peamised
funktsioonid tidyverse pakettides on järgnevad:
select - võimaldab valida andmetabeli
veerge
filter - võimaldab valida andmetabeli
ridu
mutate - võimaldab tekitada tabelisse uusi
veergusid või modifitseerida vanu
group_by ja summarize -
võimaldavad summeerida väärtusi tunnuste poolt defineeritud
gruppides
arrange - võimaldab sorteerida tabelit ühe või
mitme tunnuse järgi
Järgnevalt vaatame iga funktsiooni ja mõnda kasutusnäidet täpsemalt
kasutades andmestikku mass, mis sai sisse loetud
eelnevalt.
select
select võimaldab andmetabeli veerge valida ja neid ka
selle käigus ümber nimetada. Veergude nimed saab funktsioonile ette anda
ilma jutumärkideta.
mass %>% select(AGEP, SEX)
mass %>% select(Age = AGEP, Gender = SEX) # paneme ilusamad nimed
mass %>% select(-CIT, -AGEP) # Saame ka konkreetseid veerge välja visata
filter
filter võimaldab ridu filtreerida seades loogilisi
tingimusi veergudele. Sisendtabelis olevate veergude nimed tunneb
filter automaatselt ära.
mass %>% filter(AGEP < 20) # Vanus väiksem kui 20
mass %>% filter(CIT == "Not a citizen of the U.S.")
mass %>% filter(
CIT
%in%
c(
"U.S. citizen by naturalization",
"Not a citizen of the U.S."
)
)
mass %>% filter(AGEP < 20 | CIT == "Not a citizen of the U.S.")
mutate
mutate võimaldab luua uusi veeraid vastavalt sellele kas
veerg millele väärtus omistatakse juba eksiteerib või mitte. Nagu
eelnevatelgi funktsioge või muuta olemasolevonidel mutate
sees saab tehetel kasutada veerunimesid.
mass %>% mutate(Old = AGEP > 60) %>% select(AGEP, Old)
mass %>% mutate(AGEP = AGEP + 1)
summarize
summarize on käsk mis võimaldab andmestikul kokkuvõtteid
välja arvutada. Erinevalt mutate käsust tagastab ta ainult
väljaarvutatud suurused ja mitte midagi muud.
mass %>% summarize(MeanAge = mean(AGEP))
mass %>% summarize(MeanAge = mean(AGEP), MinAge = min(AGEP))
Funktsioon n() summarize sees ütleb kui
mitu rida sisend tabelis on.
mass %>% summarize(MeanAge = mean(AGEP), MinAge = min(AGEP), N = n())
mass %>%
summarize(
MeanAge = mean(AGEP),
MinAge = min(AGEP),
MaxAge = max(AGEP),
N = n()
);
group_by
group_by võimaldab rakendada nn
“split-apply-combine”strateegiat, kus andmestik tükeldatakse
ühe või mitme tunnuse väärtus alusel alamandmestikeks, rakendatakse
mingit funktsiooni alam-andmestikel ning tulemused kombineeritakse. Kui
me oleme rakendanud käsku group_by andmestikule siis järgnevate käskude
puhul just selline operatsioon toimubki.
group_by ja summarize moodustavad
kombinatsiooni, millega on võimalik tunnuste poolt defineeritud gruppide
kaupa summeerida teiste muutujate väärtuseid. Tulemusse jäävad alles
tunnused mille järgi grupeeriti ning summarize käsus
defineeeritud tunnused. Grupeerida võib nii ühe kui mitme tunnuse
järgi.
mass %>% group_by(CIT) %>% summarize(AGEP = mean(AGEP))
mass %>% group_by(CIT, SEX) %>% summarize(AGEP = mean(AGEP))
Funktsioon n() summarize sees ütleb kui
mitu tabeli rida konkreetsele grupeerivate tunnuste kombinatsioonile
vastab. See on väga kasulik sagedustabelite tegemisel
mass %>% group_by(CIT) %>% summarize(N = n())
mass %>% group_by(CIT, SEX) %>% summarize(AGEP = mean(AGEP), N = n())
Kui pärast group_by käsku rakenda mutate käsku. Siis mutate töötab
jupikaupa group_by defineeritud alamhulkadel. Näiteks nii saame lisada
igale reale grupikeskmise või järjekorra numbri grupi sees.
mass %>% select(AGEP, SEX) %>% group_by(SEX) %>% mutate(MeanAgeGroup = mean(AGEP))
mass %>% select(AGEP, SEX) %>% group_by(SEX) %>% mutate(IdInGroup = 1:n())
arrange
arrange lihtsalt sorteerib andmetabeli etteantud
tunnus(t)e järgi.
mass %>% arrange(AGEP) # Vaikimise väiksemast suuremaks
mass %>% select(AGEP, SEX) %>% arrange(AGEP, SEX)
# mass %>% arrange(desc(AGEP)) # Käsuga desc saab sorteerimise suuna ümber pöörata
mass %>% arrange(-AGEP) # Käsuga desc saab sorteerimise suuna ümber pöörata
Funktsioonide kombineerimine
Olgugi, et iga funktsioon üksi teostab konkreetse lihtsa
operatsiooni, võib neid üksteise järel ritta ladudes lahendada päris
keerukaid probleeme. Näiteks siin leiame top 5 ametit tööealistele USAs
ja väljaspool sündinud inimestele.
mass %>%
select(Age = AGEP, Citizenship = CIT, Occupation = OCCP) %>%
filter(Age > 18 & Age < 65) %>%
mutate(BornUS = Citizenship == "Born in the U.S.") %>%
group_by(BornUS, Occupation) %>%
summarize(N = n()) %>%
group_by(BornUS) %>%
mutate(Rank = rank(-N)) %>%
filter(Rank <= 5) %>%
arrange(BornUS, Rank)
Ülesanded 6
Kummal on kõrgem keskmine palk kas üle või alla 55 aastastel
arstidel? (Kasuta tunnuseid WAGP - palk, AGEP - vanus, OCCP - amet,
kategooria “MED-PHYSICIANS AND SURGEONS”, W)
Millise ameteid esindavad naised töötavad keskmiselt nädalas
kõige kauem? Keskendu ainult ametitele, mida esindavaid naisi on
andmestikus vähemal 10. (Kasuta tunnuseid AGEP - vanus, SEX - sugu
väärtus “Female” , WKHP - nädalas tehtud töötunnid, OCCP -
amet)
Mis on täiskasvanud inimeste kõige kõrgema keskmise palgaga
ametid Massachusettsi andmestiku kohaselt? Keskendu ainult ametitele,
mille esindajaid on andmestikus vähemal 10. (Kasuta tunnuseid AGEP -
vanus, WAGP - palk, OCCP - amet)
mass %>%
select(Age = AGEP, Occupation = OCCP, Wage = WAGP) %>%
filter(Occupation == "MED-PHYSICIANS AND SURGEONS") %>%
mutate(isOver55 = Age >= 55) %>%
group_by(isOver55, Occupation) %>%
summarise(MeanWage = mean(Wage))
mass %>%
select(sex = SEX, occupation = OCCP, workHoursPerWeek = WKHP) %>%
filter(sex == "Female") %>%
group_by(occupation) %>%
filter(n() >= 10) %>%
summarise(meanHours = mean(workHoursPerWeek)) %>% # mean(workHoursPerWeek, na.rm = TRUE)
arrange(-meanHours) %>%
select(occupation, meanHours)
mass %>%
filter(SEX == "Female") %>%
group_by(OCCP) %>%
filter(n() >= 10) %>%
summarise(
mean_hours = mean(WKHP, na.rm = TRUE),
count = n()
) %>%
arrange(desc(mean_hours))
---
title: "Praktikum 5 - R alused"
output: html_notebook
---

## R kui kalkulaator

Kõige lihtsam viis R-i kasutada on temaga lihtsalt arvutusi teha.

```{r}
5 + 7 
25 ** 2 
1 / 2
1 / 0 
0 / 0

x = 5
```

```{r}

```

ctrl alt i teeb uue koodi akna

shift enter paneb uue rea koodiblokist välja

ctrl enter jooksutab 1 rea

ctrl shift enter jooksutab terve koodibloki

Kohe on kasutajale kättesaadavad ka peamised matemaatilised funktsioonid ja konstandid.

```{r}
2 + sqrt(375769) - 25^2 # astendamismärgina võib kasutada nii ^ kui ka **, nt 2**3 
sin(pi/6) + acosh(1) 
log(exp(1)) 
sqrt(-1+0i) 
factorial(6) / choose(4, 2) 
```

Kasutatud matemaatilised funktsioonid on näited R-s defineeritud käskudest, mida kutsutakse välja nende nime ja järgnevate sulgudega. Sulgude sisse lisatakse funktsiooni argumendid. Argumendi nimed võib, kuid ei pea välja kirjutama, kui anda argumendi väärtused ette õiges järjekorras. Näiteks järgnevad käsud annavad sama tulemuse.

```{r}
log(x = 25, base = 5) 
log(25, 5) 
```

## Abi R-s

Tihtipeale ei pea kõiki argumente määrama, sest nendel on määratud vaikimisi väärtused. Selleks, et aru saada kuidas mõni funktsioon töötab tasub vaadata konkreetse funktsiooni abi lehekülgi. Neile saab ligi kirjutades funktsiooni ette `?`. Näiteks.

```{r}
?log
```

Abilehed tekivad kõrvalaknasse. Help failil on mitu standardset osa millest on erinevate küsimuste puhul abi.

-   **Usage:** siin on funktsiooni väljakutse koos kõigi parameetritega. Juhul kui konkreetsele parameetrile on defineeritud vaikeväärtus, siis on see kirjas parameetri järel pärast võrdusmärki.

-   **Arguments:** kirjeldab parameetri tähendust.

-   **Details:** annab funktsiooni implementatsiooni detailid.

-   **Examples:** näited mida üldiselt võib kohe läbi jooksutada. **Uue funktsiooni tundma õppimisel on näidete sektsioon tihtipeale kõige suuremaks abiks**, sest nii on lihtsama saada aru sisendi ja väljundi oodatavast kujust.

### Ülesanne 1

-   Mida teeb funktsioon `rm`?

-   Proovi läbi üks näide funktsioonist `rm`?

```{r}
?rm

```

```{r}
rm(x)
```

## Muutujad

Loomulikult nagu programmeerimisekeelele kohane saab R-s defineerida ka muutujaid.

```{r}
kaal = 80 
pikkus = 180
bmi = kaal / (pikkus / 100)^2 

bmi2 <- bmi**2

bmi

jah = TRUE
ei = F

jah
ei
```

Muutujatele ei pea ette tüüpi, selle arvab R ise ära. Olulisemaid muutuja tüüpe ei ole väga palju:

-   `logical` - tõeväärtuste hoidmiseks (väärtused `TRUE`/`FALSE`),

-   `numeric` - kõik reaalarvud, sealhulgas täisarvud,

-   `character` - sõned (sisestamisel panna jutumärkide vahele).

Ühest tüübist teise teisendamiseks on mõeldud funktsioonid `as.<tüübi nimi>`. Näiteks saab tihti veateateid, kui tehteid tehakse valest tüübist muutujatega.

```{r}
"5" + 5
```

Kasutades tüübiteisendusi saab neist üle.

```{r}
as.numeric("5") + 5
```

### Ülesanne 2

-   Kas tõeväärtusi saab liita?

-   Milline on TRUE numbriline väärtus?

```{r}
TRUE + TRUE
TRUE - TRUE

TRUE - FALSE
F - T

FALSE + FALSE
FALSE - FALSE
```

## Funktsioonide defineerimine

Me enne nägime, et on võimalik kasutada ette antud funktsioone. Kuid neid on ka lihtne defineerida järgneva süntaksiga.

``` r
<funktsiooni nimi> = function(<argumentide nimekiri>){ 
     <argumentidega tehtavad operatsioonid> 
     return(<tagastatav väärtus>) 
} 
```

Näiteks võime defineerida kehamassi indeksi arvutamise funktsiooni.

```{r}
bmi = function(kaal, pikkus = 180){
  res = kaal / (pikkus / 100) ** 2
  
  return(res)
}

bmi(85)
bmi(85, 195)
```

## Lisapaketid

Paljud R-i lisafunktsioonid on pakendatud pakettidesse, mis tuleb kasutamiseks eraldi laadida käsuga `library`. Näiteks funktsioon `as_date` on lisapaketis `lubridate`, mille peab enne kasutamist sisse lugema.

```{r}
#as_date("2012-01-01")

library(lubridate) 

as_date("2012-01-01")
```

Enamus pakette mis asuvad keskses repositooriumis CRAN-s, saab R-s installida kas käsuga `install.packages` konsoolilt või Packages saki alt paremal alumises aknas RStudios (kui vaja valige Install from: Repository (CRAN)).

### Ülesanne 3

-   Installi pakett `tidyverse` ja loe see sisse.

```{r}
library(tidyverse)
```

## Vektorid

Keskne objektitüüp R-s on vektor (sarnane 1D `numpy array`-ga). mis on teisisõnu ühe mõõtmeline sama tüüpi muutujate järjestus. Vektorite loomiseks on mitmeid viise.

```{r}
1:10 # Järjest numbrid 
9:2 # Tagurpidi järjestus
c(1, 4, 2, 6) # Suvaliste elementide järjestus
c(1:10, 4, c(2, 4)) # Argumendid võivad olla nii vektori kui üksikud väärtused
c("A", "B", "C") # Vektorisse võib panna ka sõnesid
seq(0, 1, length.out = 10) # Suvalise algus- ja lõpppunktiga võrdse vahemikuga jadad
rep(1:2, times = 5)
```

fnc "c" tähendab combine!!! c(1, 2) loob 1d array (vektori) [1, 2]

Andmete eraldamine vektorist käib kandiliste sulgudega. Tasub meelde jätta et **R-s algab indekseerimine 1-st.**

```{r}
x = 10:1
x[1]
x[1:5]
```

Tegelikult käsitletakse R-s isegi ühe väärtusega objekte vektoritena. Seega pole suurt vahet kas tehetes on vektor või üksikud väärtused. Vektori puhul tehakse tehteid elemendi kaupa. Kui sisendiks on erineva pikkusega vektorid siis lühemat korratakse nii kaua kui saaab pikemaga võrdseks. Sama loogika kehtib nii aritmeetiliste tehete kui ka paljude funktsioonide puhul.

```{r}
1:10 + 5 
1:10 + 10:1
log(c(1, 10, 100, 1000), base = 10)
bmi(c(85, 90, 95, 100, 105), 194)
```

Paljude funktsioonide puhul muidugi oodataksegi vektorit ja tulemuseks on arv.

```{r}
min(1:10)
max(1:10)
mean(1:10)
median(0:10)
```

### Ülesanne 4

-   Defineeri funktsioon mis teisendab etteantud numbrilise vektori 0 ja 1 vahele, nii et minimaalne väärtus on 0 ja maksimaalne 1. Vihje: vektori *x* ja selle elemendi *xi* korral on valem järgmine *(xi - min(x))/(max(x) -min(x)).*

-   Testi saadud funktsiooni, vektorite `0:10` ja `-5:5` peal. Kas tulemused on sarnased või erinevad?

```{r}

vektor_teisenda = function(vektor) {
  
  vastus =(vektor - min(vektor)) / (max(vektor) - min(vektor))
  
  return(vastus)
}
```

```{r}

vektor_teisenda(0:10)
```

## Andmetabelid

Praktilise andmeanalüüsi puhul on andmed antud tabelites, kus veergudes on erinevat tüüpi tunnused. Säärane tabel on olulisel kohal ka R-s kus ajalooliselt on kasutatud `data.frame` nimelist objekti ja viimasel ajal rohkem `tibble` nimelist `data.frame` edasiarendust `tidyverse` paketist. Sellisest tabelist võib mõelda kui tunnusvektorite kogumist, kus kõik tunnusvektorid peavad olema ühepikkused.

```{r}
library(tidyverse) # peab tegema vaid korra sessiooni alguses

moodud = tibble(
  Nimi = c("Mari", "Jaana", "Peeter"),
  Pikkus = c(155, 165, 190), 
  Kaal = c(50, 60, 100), 
  Sugu = c("N", "N", "M")
)

moodud
```

## Andmetabeli sisse lugemine erinevatest allikatest

### Tekstifailid

Andmetabeleid hoitakse enamasti tekstifailidena, kus veerud on kas tabulaatori, koma või semikooloniga eraldatud. Selliste failide lugemiseks saab kasutada `read_delim` käsku, kus tuleb kindlasti määrata failimi ja veergude eraldaja.

```{r}
mass = read_delim("massachusetts.csv", delim = ",")
mass
```

```{r}
mass = read_delim("massachusetts.csv", delim = "\t")
mass
```

Kuna enamus faile on eraldatud kas tabulaatori või komaga, siis nende failide jaoks on ka shortcutid `read_tsv` ja `read_csv`.

```{r}
mass = read_csv("massachusetts.csv")

mass
```

Kirjeldatud käsud teevad üldiselt päris head tööd, kuid siiski on failidel tihti omapärasid, näiteks on puuduvad väärtused imelikult märgitud, muutuja loetakse sisse vale tüübiga, jne. Nende probleemidega on võimalik tegeleda enamasti juba `read_*` käsu sees rakendades erinevaid parameetreid. Tasub lugeda nende funktsioonid abilehekülgi ja otsida näiteid kui hätta jääb.

#### Ülesanne 5

-   Loe sisse andmestik failist massachusetts.txt (see asub samas kataloogis kui praktikumi notebook).

```{r}

mass_txt = read_tsv("massachusetts.txt")

mass_txt
```

### RData

R tabelite salvestamine tekstifailidena ning nede hiljem sisselugemine võib põhjustada vigu. Kui mõni fail luuakse R-s ja hiljem ka R-s edasi töödeldakse on kasulik ta salvestada binaarse R objektina. Nii on teda väga lihtne hiljem sisse lugeda. Seda on võimalik saavutada käskudega `save` ja `load`. Käsule save võib ette anda ka mitu objekti.

```{r}
x = 1
save(x, mass, file = "objects.RData")
```

Salvestatud objekti saab sisse lugeda käsuga `load`. Vaikimisi tekivad töökeskkonda sama nimega objektid nagu sai salvestatud. Et aru saada mis täpselt sisse loeti, tasub kasutada parameetrit `verbose`.

```{r}
load("objects.RData", verbose = T)
```

## Andmetabelite töötlemine tidyverse käskudega

R-s on mitmeid viise kuidas andmeid saab töödelda, viimasel ajal on väga populaarseks saanud lähenemine mis on implementeeritud pakettide kogumikus ühise nimetajaga `tidyverse`. Võiks öelda, et tegu on lausa omamoodi alamkeelega R-i sees, mis laenab kontseptsioone erinveatest keeltest nagu `SQL` ja `bash` ning proovib paljud operatsioonid panna tööle ühiste printsiipide põhjal.

### %\>%

Üheks tähtsamaks käsuks tidyverse puhul on nn "toru" `%>%` mis võimaldab kirjutada pikkasid käskude jadasid loetavalt. Illustreerimaks selle kasulikkust vaatame järgmist näidet.

```{r}
prices = c("$1423.55", "$556.98", "$4321.99", "$657.01")

prices_trim = str_replace(prices, "\\$", "")
prices_trim_num = as.numeric(prices_trim) 
prices_trim_num_round = round(prices_trim_num, digits = 0)
prices_round_final = str_c("$", prices_trim_num_round)
prices_round_final
```

Siin rakendame järjest mitmeid operatsioone ja salvestame kõik vahemuutujatesse millele peame nimesid mõtlema, mis on suhteliselt tüütu. Me võime sellise operatsioooni kirjutada ka ühel real.

```{r}
str_c("$", round(as.numeric(str_replace(prices, "\\$", "")), digits = 0))
```

Kuid sellist asja on väga raske lugeda. Sest funktsioone rakendatakse järjest seestpooolt väljapoole. Palju lihtsam oleks lugeda, kui funktsioonid liiguks rakendamise järjekorras vasakult paremale. See on just see mida operaator `%>%` teeb. Ta võimaldab kirjutada `f(g(x))`, kui `x %>% g() %>% f()`. Meie eelmine näide näeks välja järgnev.

```{r}
prices %>% str_replace("\\$", "") %>% as.numeric() %>% round() %>% str_c("$", .)
```

Pane tähele, et kui eelneva funktsiooni väljund peaks olema järgmises funktsiooni väljakutses esimesel positsioonil, siis võib selle ära jätta. Kui väljund peab minema mõnele teisele positsioonile, siis saab seda märkida kui `.` (vt viimane käsk).

### Tidyverse funktsioonid

Tidyverse on üles ehitatud funktsioonidel, millest igaüks võtab sisse andmetabeli ja annab välja modifitseeritud andmetabeli. Iga funktsioon teostab ainult ühte operatsiooni, aga kui neid operaatoriga %\>% järjest rakendada on võimalik saavutada väga palju. Peamised funktsioonid tidyverse pakettides on järgnevad:

-   **select** - võimaldab valida andmetabeli veerge

-   **filter -** võimaldab valida andmetabeli ridu

-   **mutate** - võimaldab tekitada tabelisse uusi veergusid või modifitseerida vanu

-   **group_by** ja **summarize** - võimaldavad summeerida väärtusi tunnuste poolt defineeritud gruppides

-   **arrange** - võimaldab sorteerida tabelit ühe või mitme tunnuse järgi

Järgnevalt vaatame iga funktsiooni ja mõnda kasutusnäidet täpsemalt kasutades andmestikku `mass`, mis sai sisse loetud eelnevalt.

#### select

`select` võimaldab andmetabeli veerge valida ja neid ka selle käigus ümber nimetada. Veergude nimed saab funktsioonile ette anda ilma jutumärkideta.

```{r}
mass %>% select(AGEP, SEX)
```

```{r}
mass %>% select(Age = AGEP, Gender = SEX) # paneme ilusamad nimed
```

```{r}
mass %>% select(-CIT, -AGEP) # Saame ka konkreetseid veerge välja visata
```

#### filter

`filter` võimaldab ridu filtreerida seades loogilisi tingimusi veergudele. Sisendtabelis olevate veergude nimed tunneb `filter` automaatselt ära.

```{r}
mass %>% filter(AGEP < 20) # Vanus väiksem kui 20
```

```{r}
mass %>% filter(CIT == "Not a citizen of the U.S.")
```

```{r}
mass %>% filter(
  CIT 
    %in% 
      c(
        "U.S. citizen by naturalization", 
        "Not a citizen of the U.S."
      )
  )
```

```{r}
mass %>% filter(AGEP < 20 | CIT == "Not a citizen of the U.S.") 
```

#### mutate

`mutate` võimaldab luua uusi veeraid vastavalt sellele kas veerg millele väärtus omistatakse juba eksiteerib või mitte. Nagu eelnevatelgi funktsioge või muuta olemasolevonidel `mutate` sees saab tehetel kasutada veerunimesid.

```{r}
mass %>% mutate(Old = AGEP > 60) %>% select(AGEP, Old)
```

```{r}
mass %>% mutate(AGEP = AGEP + 1) 
```

#### summarize

`summarize` on käsk mis võimaldab andmestikul kokkuvõtteid välja arvutada. Erinevalt `mutate` käsust tagastab ta ainult väljaarvutatud suurused ja mitte midagi muud.

```{r}
mass %>% summarize(MeanAge = mean(AGEP))
```

```{r}
mass %>% summarize(MeanAge = mean(AGEP), MinAge = min(AGEP))
```

Funktsioon `n()` `summarize` sees ütleb kui mitu rida sisend tabelis on.

```{r}
mass %>% summarize(MeanAge = mean(AGEP), MinAge = min(AGEP), N = n())
```

```{r}
mass %>% 
  summarize(
    MeanAge = mean(AGEP), 
    MinAge = min(AGEP), 
    MaxAge = max(AGEP), 
    N = n()
  );
```

#### group_by

`group_by` võimaldab rakendada nn "*split-apply-combine*"strateegiat, kus andmestik tükeldatakse ühe või mitme tunnuse väärtus alusel alamandmestikeks, rakendatakse mingit funktsiooni alam-andmestikel ning tulemused kombineeritakse. Kui me oleme rakendanud käsku group_by andmestikule siis järgnevate käskude puhul just selline operatsioon toimubki.

`group_by` ja `summarize` moodustavad kombinatsiooni, millega on võimalik tunnuste poolt defineeritud gruppide kaupa summeerida teiste muutujate väärtuseid. Tulemusse jäävad alles tunnused mille järgi grupeeriti ning `summarize` käsus defineeeritud tunnused. Grupeerida võib nii ühe kui mitme tunnuse järgi.

```{r}
mass %>% group_by(CIT) %>% summarize(AGEP = mean(AGEP))
```

```{r}
mass %>% group_by(CIT, SEX) %>% summarize(AGEP = mean(AGEP))
```

Funktsioon `n()` `summarize` sees ütleb kui mitu tabeli rida konkreetsele grupeerivate tunnuste kombinatsioonile vastab. See on väga kasulik sagedustabelite tegemisel

```{r}
mass %>% group_by(CIT) %>% summarize(N = n())
```

```{r}
mass %>% group_by(CIT, SEX) %>% summarize(AGEP = mean(AGEP), N = n())
```

Kui pärast group_by käsku rakenda mutate käsku. Siis mutate töötab jupikaupa group_by defineeritud alamhulkadel. Näiteks nii saame lisada igale reale grupikeskmise või järjekorra numbri grupi sees.

```{r}
mass %>% select(AGEP, SEX) %>% group_by(SEX) %>% mutate(MeanAgeGroup = mean(AGEP))
```

```{r}
mass %>% select(AGEP, SEX) %>% group_by(SEX) %>% mutate(IdInGroup = 1:n())
```

#### arrange

`arrange` lihtsalt sorteerib andmetabeli etteantud tunnus(t)e järgi.

```{r}
mass %>% arrange(AGEP) # Vaikimise väiksemast suuremaks
```

```{r}
mass %>% select(AGEP, SEX) %>% arrange(AGEP, SEX)
```

```{r}
# mass %>% arrange(desc(AGEP)) # Käsuga desc saab sorteerimise suuna ümber pöörata

mass %>% arrange(-AGEP) # Käsuga desc saab sorteerimise suuna ümber pöörata
```

### Funktsioonide kombineerimine

Olgugi, et iga funktsioon üksi teostab konkreetse lihtsa operatsiooni, võib neid üksteise järel ritta ladudes lahendada päris keerukaid probleeme. Näiteks siin leiame top 5 ametit tööealistele USAs ja väljaspool sündinud inimestele.

```{r}
mass %>% 
  select(Age = AGEP, Citizenship = CIT, Occupation = OCCP) %>% 
  filter(Age > 18 & Age < 65) %>% 
  mutate(BornUS = Citizenship == "Born in the U.S.") %>% 
  group_by(BornUS, Occupation) %>% 
  summarize(N = n()) %>% 
  group_by(BornUS) %>% 
  mutate(Rank = rank(-N)) %>% 
  filter(Rank <= 5) %>% 
  arrange(BornUS, Rank)
```

### Ülesanded 6

-   Kummal on kõrgem keskmine palk kas üle või alla 55 aastastel arstidel? (Kasuta tunnuseid WAGP - palk, AGEP - vanus, OCCP - amet, kategooria "MED-PHYSICIANS AND SURGEONS", W)

-   Millise ameteid esindavad naised töötavad keskmiselt nädalas kõige kauem? Keskendu ainult ametitele, mida esindavaid naisi on andmestikus vähemal 10. (Kasuta tunnuseid AGEP - vanus, SEX - sugu väärtus "Female" , WKHP - nädalas tehtud töötunnid, OCCP - amet)

-   Mis on täiskasvanud inimeste kõige kõrgema keskmise palgaga ametid Massachusettsi andmestiku kohaselt? Keskendu ainult ametitele, mille esindajaid on andmestikus vähemal 10. (Kasuta tunnuseid AGEP - vanus, WAGP - palk, OCCP - amet)

```{r}

mass %>% 
  select(Age = AGEP, Occupation = OCCP, Wage = WAGP) %>% 
  filter(Occupation == "MED-PHYSICIANS AND SURGEONS") %>% 
  mutate(isOver55 = Age >= 55) %>% 
  group_by(isOver55, Occupation) %>% 
  summarise(MeanWage = mean(Wage))
```

```{r}

mass %>% 
  select(sex = SEX, occupation = OCCP, workHoursPerWeek = WKHP) %>%
  filter(sex == "Female") %>% 
  group_by(occupation) %>%
  filter(n() >= 10) %>%
  summarise(meanHours = mean(workHoursPerWeek)) %>% # mean(workHoursPerWeek, na.rm = TRUE)
  arrange(-meanHours) %>%
  select(occupation, meanHours)
```

```{r}
mass %>% 
  filter(SEX == "Female") %>% 
  group_by(OCCP) %>% 
  filter(n() >= 10) %>% 
  summarise(
    mean_hours = mean(WKHP, na.rm = TRUE),
    count = n()
  ) %>% 
  arrange(desc(mean_hours))
```

# Lisamaterjale

-   Pythoni syntaksi võrdlus R-ga: <https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_r.html>

-   R tutorial Andmekaeve kursusest: <https://courses.cs.ut.ee/2017/DM/fall/Main/RTutorial>
